查看原文
其他

干货 | 如何快速从全世界语料中找到你想要的句子?

爱分享的 语言服务
2024-09-04
点击上方“语言服务” 可以订阅



又有神器来拯救文盲了!


天气太热只会念叨一句“热死了”?发朋友圈翻来覆去才憋出几个字?


这个检索神器值得了解一下。


只要在搜索框里输入你想表达的意思,如“热死了”。


立刻就能有20个表达这一意思的句子任君挑选。



句子类型还能按需选取,名言警句、歇后语、古诗文都不在话下。



并且给出的名言还会注明出处作者,这下再也不用啥话都往迅哥儿身上套了。



怪不得网友直呼:朋友圈文案高级表达查找替换系统。



而且,我们在试玩了几轮后发现,这个神器在hold住网络俗语“精髓”上的表现有些出人意料。


比如这两天大家都在说的“精神内耗”。


它给出了一段卢梭的话,完全拿捏住了词语本来的意思,语言逼格立马提升好几度。



甚至还能找出意思相近的古诗文。


来自欧阳修《秋声赋》中的这句“百忧感其心,万事劳其形,有动乎中,必遥其情”,说的意思就是焦虑使人精神疲惫。



果真是能通杀古今了。


于是,我们找来了更多网络流行语喂给它,看看还能擦出什么火花~


听我说谢谢你,古诗版


第一个要尝试的网络名句,是“听我说谢谢你”。


神器反向输出结果中,意思最为贴近的是王维的这句“举世无相识,终身思旧恩”。


这句诗中明确体现了说话主体人表达感谢之意,称得上是“听我说谢谢你”的究极上流版。



还有在句式上非常接近的结果,是温庭筠笔下的“知我意,感君怜”。



最让人意想不到的,是神器反向输出了《将进酒》里的“与君歌一曲,请君为我倾耳听”。



乍看之下,这个答案好像是错的。


但要知道“听我说谢谢你”能成为梗,就是因为防疫人员尴尬被迫听歌事件……


这么看,反向输出神器还意外扣了题。



不只是这句梗,还有很多网络用语,反向输出神器的回答都是貌似不着边际,但又让人觉得异常契合。


比如输入“无语子”,给出的诗句有:

满怀心腹事,尽在不言中。


这不就是大家表达无语时的真实心境吗?因为不便明说,所以沉默,所以无语。



还有这句“你品,你细品”,输出的诗句也都带有了仔细品读、反复回味的意思。



那么,这个好用又好玩的神器,到底是什么来头呢?


来自清华的“据意查句”


以上说的这个好登西,是由清华推出的“据意查句”神器——WantQuotes。


诞生自清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP),项目指导教师为孙茂松教授和刘知远副教授。


能够快速从全世界这么多语料中找到你想要的句子,这个神器主要靠的是一个超大的数据集和一个推荐模型。


数据集包含了英语、现代汉语和文言文三大部分。


其中,英语部分有6108个名言警句和126713个上下文文本段;

现代汉语部分,包含有3004句名言和408433个相关上下文;

文言文部分,则有4438段文言典故(包括古诗)和116537段相关上下文。


推荐模型方面,本文提出使用BERT作为句子编码器来学习名言警句和相关文本表示。


但由于绝大多数名言警句的表达都非常凝练,但是可能其中每个背后的意义又包含很多层,所以在本方法中,研究人员将义原引入到编码器中。


简单来说,义原是语言学中最小的语义单位。语言学家认为义原体系在任何语言中都适用,不与特定语言相关。


举个例子,“男孩”这个词可以由“人类”、“男性”、“儿童”这个三个义原表示,“女孩”则可以由“人类”、“女性”、“儿童”的组合来表达。



因此在模型中引入义原后,就能很好解决词义消歧的问题,并且能更准确地捕捉到词与词之间的关系。


也就是让模型把语言学得更加透彻。


而在具体任务对比中可以看到,本文方法的性能均优于其他方法。


同时用消融实验验证了训练方法的有效性(下表最后三行结果)。



在只给出左侧文本的条件下,本文方法的结果依旧优于过去方法。



还有反向词典和AI作诗系统


看到这里你可能觉得这项工作有点似曾相识。


没错,那个之前爆火的“反向词典”也来自这个实验室。


所谓“反向”,就是和常规词典不同,不是按词寻义,而是反过来给词典一段描述,让它来帮你找词。



比如还是这句“听我说谢谢你,因为有你,温暖了四季”,用成语应该怎么说?


反向词典可以立马抛出几十乃至上百个选项出来,并且还会标注推荐程度。


背景颜色越深,代表系统推荐程度越高。



要是碰上啥看不懂的,鼠标一点,就能查看具体释义。



而除了拯救现代失语人外,他们还让AI尝试过写古诗,之前也在网络上爆火过。



不得不说,THUNLP真是要把AI+中文玩出花了。


该实验室由孙茂松教授领衔,教师队伍中还有刘洋教授和刘知远副教授。



前不久,THUNLP还获得了ACL 2022最佳演示论文奖(Best Demo Paper Award)。


该奖项是ACL系列会议对System Demonstration论文授予的最佳论文奖项,每届会议基于评审人员评估的系统贡献度、完成度、影响力及会议演示综合效果的综合评价评选出一篇获奖论文。


One More Thing


目前,“反向词典”在网页端和微信小程序上都能使用,APP在路上了。


“据意查句”还只能在网页端使用(需要扫码关注公众号)。


另外,团队表示还是希望大家在使用时多给反馈、多提建议。


比如给好的推荐名句点赞,如果看到有错误之处也能直接指正。


对了,研发团队还表示,作为开源项目随时欢迎大家加入,参与项目设计&开发、提出需求、反馈问题。


感兴趣的话就去官网戳戳公告吧~



“据意查句”官网:
https://wantquotes.net/

“反向词典”官网:
https://wantwords.net/

参考链接:
https://weibo.com/5198011111/LE58vxn0N?



本文来源:量子位



科研干货


干货 | 最新版Z-library官方客户端和最新地址

干货 | 比Z-library更好使的文献搜索神器——安娜的档案

重磅 | 在线自主申领!中国知网学位论文稿酬领取更快捷啦(附网址)

干货 | 中国语言文字数字博物馆移动端“语博”App正式上线

干货 | 新国标《学术论文编写规则》发布(附下载方式)

干货 | 夹用英文的中文文本的标点符号用法(附电子版下载)

干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)

重磅 | 最新版北大核心期刊目录及投稿方式大全(语言学)

重磅 | CSSCI(2021-2022)来源期刊(含扩展版)投稿方式大全(语言学)

干货 | 国际中文教育研究刊物集锦(含刊物简介及投稿方式)

重磅 | 2021版语言学类SSCI期刊名单出炉(附excel版下载)

干货 | 超实用的学术论文英语句式大全(附PDF格式下载)

干货 | 这个神器可以获取海量资源,写论文做课题必备

干货 | 英语教学及论文写作必备的12个语法检测工具

干货 | 中国知网的这两项功能悄悄更新,造福了万千研究生

干货 | 知网检索系统更新了,这些新功能,你get到了吗?

干货 | 知网技巧:如何在知网查询外文文献

干货丨这30个网站可以免费获取英文电子书和文献资源

干货 | 6本经典英英词典免费电子资源包(内附安装教程)

干货 | 50个常用学术网站及使用指南

干货 | 全球免费数字图书馆资源大全!

干货 | 北京大学CCL语言田野调查及分析系统(附下载链接)

干货 | 全球汉语传播动态数据库正式开放(附网址)

干货 | “了不起的甲骨文”小程序最全攻略

干货 | 语言研究必备的37个常用语料库

干货 | 国家语言资源服务平台正式上线

干货 | 故宫博物院藏古文字数字平台上线(附网址)

干货 | 汉语方言语法特征语料库上线(附网址)

干货 | AI中文教育资源网上线(附网址)

干货 | 古汉语通假字资源库上线(附网址)

干货 | 100款人文社科领域的学术科研工具大汇总

干货 | 推荐收藏!130个学术网站和26个科研工具

干货 | 推荐收藏!20个实用的语言文字检索数据库

干货 | 推荐收藏!40个容易贬义褒用的词语

干货 | 推荐收藏!230个常见错别字词

干货 | 教师必备的10个教学资源网站

干货 | 做科研最忌讳什么:以语言学研究为例

干货 | 新华社公布102个禁用词,三思而后言(附word版下载)

干货 | 不做“标题党”,语言类公众号推文标题如何出奇出新?

干货 | 百度文心一言向全社会开放

干货 | 中文古籍有多少家底?这个平台聚齐1400余家机构馆藏目录

干货 | 古汉语AI大模型,来了!

干货 | 最全整理!336个语言学论文选题,还怕论文无从下手?

干货 | 研究生常用的科研工具推荐

干货 | 中国国家智慧教育公共服务平台国际版正式上线(附网址)

干货 | 汉语言文字学专业必备的13个网站和11种工具书

干货 | 人文社科领域被引最多的经典论著Top 10(含语言学)


语言服务资源共享



学术资讯分享

学术资源共享

学术交流共进

还有实用干货和更多福利

尽在语言服务资源共享群

欢迎加入


在【语言服务】公众号对话框

回复“资源共享

获取进群方式


语言服务

20万+语言学人已关注

ID:Language-service

投稿邮箱:yuyanfuwu@yeah.net

投稿交流、商务合作、著作出版

请联系语服君

微信号:yuyanfuwu2023

点击阅读原文

获取更多实用干货


今天有“在看”我吗?
继续滑动看下一个
语言服务
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存